Face manipulation detection has been receiving a lot of attention for the reliability and security of the face images. Recent studies focus on using auxiliary information or prior knowledge to capture robust manipulation traces, which are shown to be promising. As one of the important face features, the face depth map, which has shown to be effective in other areas such as the face recognition or face detection, is unfortunately paid little attention to in literature for detecting the manipulated face images. In this paper, we explore the possibility of incorporating the face depth map as auxiliary information to tackle the problem of face manipulation detection in real world applications. To this end, we first propose a Face Depth Map Transformer (FDMT) to estimate the face depth map patch by patch from a RGB face image, which is able to capture the local depth anomaly created due to manipulation. The estimated face depth map is then considered as auxiliary information to be integrated with the backbone features using a Multi-head Depth Attention (MDA) mechanism that is newly designed. Various experiments demonstrate the advantage of our proposed method for face manipulation detection.
translated by 谷歌翻译
Left-ventricular ejection fraction (LVEF) is an important indicator of heart failure. Existing methods for LVEF estimation from video require large amounts of annotated data to achieve high performance, e.g. using 10,030 labeled echocardiogram videos to achieve mean absolute error (MAE) of 4.10. Labeling these videos is time-consuming however and limits potential downstream applications to other heart diseases. This paper presents the first semi-supervised approach for LVEF prediction. Unlike general video prediction tasks, LVEF prediction is specifically related to changes in the left ventricle (LV) in echocardiogram videos. By incorporating knowledge learned from predicting LV segmentations into LVEF regression, we can provide additional context to the model for better predictions. To this end, we propose a novel Cyclical Self-Supervision (CSS) method for learning video-based LV segmentation, which is motivated by the observation that the heartbeat is a cyclical process with temporal repetition. Prediction masks from our segmentation model can then be used as additional input for LVEF regression to provide spatial context for the LV region. We also introduce teacher-student distillation to distill the information from LV segmentation masks into an end-to-end LVEF regression model that only requires video inputs. Results show our method outperforms alternative semi-supervised methods and can achieve MAE of 4.17, which is competitive with state-of-the-art supervised performance, using half the number of labels. Validation on an external dataset also shows improved generalization ability from using our method. Our code is available at https://github.com/xmed-lab/CSS-SemiVideo.
translated by 谷歌翻译
视频阴影检测旨在在视频帧之间产生一致的阴影预测。但是,当前的方法遇到了整个框架的阴影预测不一致的,尤其是当视频中的照明和背景纹理发生变化时。我们观察到不一致的预测是由阴影特征不一致引起的,即,同一阴影区域的特征在附近的框架之间显示出不同的礼节。在本文中,我们提出了一种新颖的阴影通信方法(SC-COR)(SC-COR) ),以增强跨帧的特定阴影区域的像素相似性,以进行视频阴影检测。我们提出的SC-COR具有三个主要优势。首先,不需要密集的像素到像素对应标签,SC-COR可以以弱监督的方式学习跨帧的像素对应。其次,SC-COR考虑了阴影内的可分离性,这对视频中的变体纹理和照明是可靠的。最后,SC-COR是一个插件模块,可以轻松地集成到没有额外的计算成本的情况下。我们进一步设计了一个新的评估指标,以评估视频阴影检测结果的时间稳定性。实验结果表明,SC-COR的表现优于先前的最新方法,而IOU的表现为6.51%,而新引入的时间稳定性度量为3.35%。
translated by 谷歌翻译
人对象相互作用(HOI)检测在活动理解中起着至关重要的作用。尽管已经取得了重大进展,但交互性学习仍然是HOI检测的一个具有挑战性的问题:现有方法通常会产生冗余的负H-O对提案,并且无法有效提取交互式对。尽管已经在整个身体和部分级别研究了互动率,并促进了H-O配对,但以前的作品仅专注于目标人一次(即,从本地角度来看)并忽略了其他人的信息。在本文中,我们认为同时比较多人的身体零件可以使我们更有用,更补充的互动提示。也就是说,从全球的角度学习身体部分的互动:当对目标人的身体零件互动进行分类时,不仅要从自己/他本人,而且还从图像中的其他人那里探索视觉提示。我们基于自我注意力来构建身体的显着性图,以挖掘交叉人物的信息线索,并学习所有身体零件之间的整体关系。我们评估了广泛使用的基准曲线和V-Coco的建议方法。从我们的新角度来看,整体的全部本地人体互动互动学习可以对最先进的发展取得重大改进。我们的代码可从https://github.com/enlighten0707/body-part-map-for-interactimence获得。
translated by 谷歌翻译
隐肌通常会将覆盖媒体修改为嵌入秘密数据。最近出现了一种称为生成隐志(GS)的新型隐志方法,其中直接从秘密数据中生成了Stego图像(包含秘密数据的图像),而无需覆盖媒体。但是,现有的GS方案经常因其表现不佳而受到批评。在本文中,我们提出了一个先进的生成隐志网络(GSN),该网络可以在不使用封面图像的情况下生成逼真的Stego图像,其中首先在Stego Image生成中引入了相互信息。我们的模型包含四个子网络,即图像生成器($ g $),一个歧视器($ d $),steganalyzer($ s $)和数据提取器($ e $)。 $ d $和$ s $充当两个对抗歧视器,以确保生成的Stego图像的视觉和统计不可识别。 $ e $是从生成的Stego图像中提取隐藏的秘密。发电机$ g $灵活地构建以合成具有不同输入的封面或seego图像。它通过隐藏在普通图像发生器中生成seego图像的功能来促进秘密通信。一个名为Secret Block的模块设计用于在图像生成过程中掩盖特征地图中的秘密数据,并实现了高隐藏容量和图像保真度。此外,开发了一种新型的层次梯度衰减技能来抵抗切割分析的检测。实验证明了我们工作比现有方法的优越性。
translated by 谷歌翻译
在线社交网络比以往任何时候都更加激发了互联网的通信,这使得在此类嘈杂渠道上传输秘密消息是可能的。在本文中,我们提出了一个名为CIS-NET的无封面图像隐志网络,该网络合成了直接在秘密消息上传输的高质量图像。 CIS-NET由四个模块组成,即生成,对抗,提取和噪声模块。接收器可以提取隐藏的消息而不会损失任何损失,即使图像已被JPEG压缩攻击扭曲。为了掩盖隐肌的行为,我们在个人资料照片和贴纸的背景下收集了图像,并相应地训练了我们的网络。因此,生成的图像更倾向于摆脱恶意检测和攻击。与先前的图像隐志方法相比,区分主要是针对各种攻击的鲁棒性和无损性。各种公共数据集的实验已经表现出抗坚果分析的卓越能力。
translated by 谷歌翻译
本文介绍了我们针对六个基本表达分类的方法论情感行为分析(ABAW)竞赛2022年的曲目。从人为生成的数据中表达并概括为真实数据。由于合成数据和面部动作单元(AU)的客观性的模棱两可,我们求助于AU信息以提高性能,并做出如下贡献。首先,为了使模型适应合成场景,我们使用了预先训练的大规模面部识别数据中的知识。其次,我们提出了一个概念上的框架,称为Au-persuped卷积视觉变压器(AU-CVT),该框架通过与AU或Pseudo Au标签共同训练辅助数据集来显然改善了FER的性能。我们的AU-CVT在验证集上的F1分数为0.6863美元,准确性为$ 0.7433 $。我们工作的源代码在线公开可用:https://github.com/msy1412/abaw4
translated by 谷歌翻译
视频容易篡改攻击,从而改变含义并欺骗观众。以前的视频伪造检测方案找到了微小的线索来定位篡改区域。但是,攻击者可以通过使用视频压缩或模糊破坏此类线索来成功逃避监督。本文提出了一个视频水印网络,用于篡改本地化。我们共同训练一个基于3D-UNET的水印嵌入网络和一个预测篡改面罩的解码器。水印嵌入产生的扰动几乎是无法察觉的。考虑到没有现成的可区分的视频编解码器模拟器,我们建议通过结合其他典型攻击的模拟结果来模仿视频压缩,例如JPEG压缩和模糊,作为近似值。实验结果表明,我们的方法生成具有良好不可识别的水印视频,并且在攻击版本中可以稳健,准确地定位篡改区域。
translated by 谷歌翻译
图像裁剪是一种廉价而有效的恶意改变图像内容的操作。现有的裁剪检测机制分析了图像裁剪的基本痕迹,例如色差和渐晕,以发现种植攻击。但是,它们在常见的后处理攻击方面脆弱,通过删除此类提示,欺骗取证。此外,他们忽略了这样一个事实,即恢复裁剪的内容可以揭示出行为造成攻击的目的。本文提出了一种新型的强大水印方案,用于图像裁剪定位和恢复(CLR-NET)。我们首先通过引入不可察觉的扰动来保护原始图像。然后,模拟典型的图像后处理攻击以侵蚀受保护的图像。在收件人方面,我们预测裁剪面膜并恢复原始图像。我们提出了两个即插即用网络,以改善CLR-NET的现实鲁棒性,即细粒生成性JPEG模拟器(FG-JPEG)和Siamese图像预处理网络。据我们所知,我们是第一个解决图像裁剪本地化和整个图像从片段中恢复的综合挑战的人。实验表明,尽管存在各种类型的图像处理攻击,但CLR-NET可以准确地定位裁剪,并以高质量和忠诚度恢复裁剪区域的细节。
translated by 谷歌翻译
自我监督的学习在视力和NLP方面取得了巨大进展。最近,它也引起了人们对X射线,CT和MRI等各种医学成像方式的广泛关注。现有方法主要集中于构建新的借口自学任务,例如根据医学图像的属性进行重建,方向和掩盖识别。但是,并未完全利用公开可用的自我实施模型。在本文中,我们提出了一个强大而有效的自学框架,用于外科视频理解。我们的主要见解是将知识从大型通用数据集中培训的公开模型中提取知识,以促进对手术视频的自我监督学习。为此,我们首先引入了一种传承语义的培训计划,以获取我们的教师模型,该模型不仅包含了公开可用模型的语义,而且还可以为手术数据提供准确的知识。除了仅具有对比度学习的培训外,我们还引入了一个蒸馏目标,将丰富的学习信息从教师模型转移到手术数据上的自学学习。对两个手术期识别基准的广泛实验表明,我们的框架可以显着提高现有的自我监督学习方法的性能。值得注意的是,我们的框架在低DATA制度下表现出了令人信服的优势。我们的代码可在https://github.com/xmed-lab/distillingself上找到。
translated by 谷歌翻译